#Gemini Enterprise

宝玉
7小时前
来自 X 账号 TestingCatalog 的爆料:Google 在 Gemini 企业版(Gemini Enterprise)里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题,再配上一套评估标准,它就能自己生成一大堆点子,然后拉起一整支智能体团队,像打锦标赛一样一轮轮评审这些点子。 这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说,这已经是非常长的一次连续推理过程了。 在这 40 分钟结束时,用户会收到一大串点子清单,按你一开始设定的标准从优到劣排好名。整个规模也不小:系统一次能产出大约 100 个点子。对每一个点子,你都能拿到: - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」(tournament performance report) 这个「表现报告」还是一个单独的输出,可以单独打开慢慢看。所有生成出来的点子都是可选择的,你可以点进任意一个,继续深入展开。 在当前的内测版本里,Google 看起来内置了三个智能体,其中有两个就是搭在这个多智能体「锦标赛」系统之上的。 第一个叫 “Idea Generation”(创意生成) 在这个模式里,你只要给一个主题,这个智能体就会启动整套多智能体工作流,用「锦标赛式评估」(tournament-style evaluation)来生成和排序各种相关点子。(所谓锦标赛式,就是不断让方案互相“对决”,胜出的留下,弱的被淘汰) 第二个叫 “Co-scientist”(联合科学家) 这个则更偏向科研和研究场景。你可以指定一个研究主题,再提供一些额外数据,然后一整个智能体团队会先生成研究方向和方案,再用同样的锦标赛机制去评估这些想法,只是这次会更强调科研和科学探索的需求。 这里最有意思的一点,是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟,这在现在的大多数智能体工具里都算是「豪华配置」了。 在整个 40 分钟里,系统会不断迭代这个问题,不停生成、筛选、打分、重组。目前,这一切都还只出现在 Gemini for Enterprise 里,属于内部开发阶段,对普通用户是隐藏的,还没有以正式功能形式对外开放。 跟现有的智能体实现相比,这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体,通常也会受限于上下文窗口和时间预算(time budget)。 而这次,Google 的做法,是直接把一大块算力「摆在台面上」给企业客户用,做成一个正儿八经的前端产品界面。这也和所谓的「Level 3 AI」的概念非常契合:这一层级的 AI 智能体,被描述为可以在同一个问题上持续工作一段较长时间。(这里的 Level 3 并不是统一标准,更像是行业里对“能长时间连续工作的智能体”的一种非正式分级说法)从这个角度看,让智能体在单个任务上跑满 40 分钟,是一个非常典型、甚至偏激进的例子。 在实际使用中,这套系统输出的核心是「被充分筛选和精炼过的点子集合」。但它们远不只是随手抛出来的一堆建议,而是可以视为一组结构化的研究方向:在你给定的数据和问题背景下,这些方向有可能真正指向高价值的洞见。所以,Google 正在推进这种极其强力的智能体能力,专门服务于组织、公司和研究团队,这件事本身非常耐人寻味。 等这项功能真正对外发布时,很可能会是一次不小的跃迁,尤其是如果这些智能体最终由 Gemini 3 Pro 来驱动的话。现在,Gemini 3 Pro 还没有进入 Gemini Enterprise,所以目前还不清楚这些实验性智能体背后具体用的是哪一个模型。 这里依然有很多东西需要测试和验证。当你把一个提示词(prompt)提交给这套系统时,它首先会给出一份「计划做什么」的概要:会在哪些维度上评估、打算从哪些方向出发生成和筛选点子。只有在你确认这份概要之后,系统才会真正启动那次「大任务」。这相当于在烧一大笔算力之前,先和你对齐「我到底打算怎么理解你的问题」。 除了多智能体锦标赛工作流之外,Gemini Enterprise 里还有另一个智能体,叫 “chat with your docs”(和文档聊天),它配了一套独立的 UI。这个智能体允许用户上传大小最高 30MB 的 PDF,然后面向这些文档进行专门对话。 这个功能同样属于 Gemini Enterprise 的一部分,目前还没有对外发布,而且在生产环境中暂时不可用。它的设计思路是:最多 30MB 的 PDF 内容可以被分析并写入模型的上下文里,这样用户就能从现有文档中抽取更有价值的信息,而不是只靠人自己翻页看。 在 Gemini Enterprise 里,还有不少其他功能正在开发中,但真正最抢眼的,还是这两条线: 1. 多智能体锦标赛式工作流 2. 面向文档的专用智能体 特别是那个基于锦标赛的多智能体架构,看起来就是一种突破性的产品路线——其他大语言模型(LLM)服务商,目前似乎还没有在这个层级上,给用户提供类似的东西。多智能体锦标赛在面向终端用户的工具里依然非常少见。也许可以拿 Grok Heavy 来做某种对比,但很可能也不能算是和 Google 这套完全同一个方向的东西。 等这些智能体成熟之后,如果能看到一套正式的评估结果和基准测试,那会非常有价值。光从现在的描述来看,那个 Co-scientist 智能体已经足够让很多大型组织和研究团队心动——尤其是那些正在探索新科学方向的团队。 至于这些智能体具体什么时候会正式上线,或者会不会开放给非企业用户,目前还都是未知数。 来源: